
冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世
冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世用过 DeepSeek-R1 等推理模型的人,大概都遇到过这种情况:一个稍微棘手的问题,模型像陷入沉思一样长篇大论地推下去,耗时耗算力,结果却未必靠谱。现在,我们或许有了解决方案。
用过 DeepSeek-R1 等推理模型的人,大概都遇到过这种情况:一个稍微棘手的问题,模型像陷入沉思一样长篇大论地推下去,耗时耗算力,结果却未必靠谱。现在,我们或许有了解决方案。
GPT-5刚发布没多久,DeepSeek-R2就快来了,好热闹的8月份! DeepSeek预计将于8月发布其新一代旗舰模型DeepSeek-R2。
年初,DeepSeek 前脚带来模型在推理能力上的大幅提升,Manus 后脚就在全球范围内描绘了一幅通用 Agent 的蓝图。新的范本里,Agent 不再止步于答疑解惑的「镶边」角色,开始变得主动,拆解分析需求、调用工具、执行任务,最终解决问题……
这就是我与 HMD 3210 的奇遇记:一台外表是 30 年前诺基亚、内心却住着一个完整大模型的「时光机器」。
国内著名AI青年科学家,清华大学电子工程系副教授代季峰,近日加盟陈天桥旗下盛大网络,正筹备一家新的AI创业公司。《科创板日报》独家获悉,盛大创始人陈天桥对代季峰领衔的这家新AI创业公司寄予厚望,并明确公司的三大研发重点:AI商业决策智能化、突破算法茧房的内容分发,以及面向老龄化和青年发展的AI服务。
年初那会儿,DeepSeek 横空出世,AI 圈子跟过年一样热闹。它凭啥这么火?除了开源够意思,五百多万的训练成本也惊艳了不少人。
2025 年已过半,今年的大模型热度明显下降,关于基础模型的关注大多收敛到了 DeepSeek 与阿里通义上。相比之下,曾一度被标榜为大模型“国产替代”、信创之光的智谱 AI 所受到的关注度明显下降,过往高调的战略打法也渐显低迷。
Deep Cogito,一家鲜为人知的 AI 初创公司,总部位于旧金山,由前谷歌员工创立,如今开源的四款混合推理模型,受到大家广泛关注。
尽管全球科技界正热烈庆祝 GPT-4、DeepSeek 等大模型展现出的惊艳能力,但一个根本性问题仍未被真正解决: 这些 AI 模型是否真正理解人类的指令与意图?
仅靠提示词优化就能超越 DeepSeek 开发的 GRPO 强化学习算法? 是的,你没有看错。近日上线 arXiv 的一篇论文正是凭此吸引了无数眼球。